草庐IT

simplexml - PHP simplexml 实体

全部标签

python - 在 contains_eager() 中指定具有继承层次结构的实体的完整路径

我有一个问题(session.query(Root).with_polymorphic('*').outerjoin(Subclass.related1).options(contains_eager(Subclass.related1)))到目前为止一切正常。我也想急切地加载Related1.related2我试过这个:(session.query(Root).with_polymorphic('*').outerjoin(Subclass.related1).options(contains_eager(Subclass.related1)).outerjoin(Related1.

python - NLTK 荷兰语命名实体识别

我正在尝试从荷兰语文本中提取命名实体。我用了nltk-trainer在conll2002荷兰语语料库上训练标注器和词block划分器。但是,chunker的parse方法没有检测到任何命名实体。这是我的代码:str='Christianeheefteenlam.'tagger=nltk.data.load('taggers/dutch.pickle')chunker=nltk.data.load('chunkers/dutch.pickle')str_tags=tagger.tag(nltk.word_tokenize(str))printstr_tagsstr_chunks=chun

python - spacy 如何使用词嵌入进行命名实体识别 (NER)?

我正在尝试使用spaCy训练NER模型来识别位置、(人)名和组织。我试图了解spaCy如何识别文本中的实体,但我一直无法找到答案。来自thisissue在Github上和thisexample,看来spaCy使用文本中存在的许多特征(例如POS标记、前缀、后缀以及文本中的其他基于字符和单词的特征)来训练平均感知器。但是,代码中没有任何地方显示spaCy使用GLoVe嵌入(尽管句子/文档中的每个单词似乎都有它们,如果存在于GLoVe语料库中的话)。我的问题是-这些现在在NER系统中使用了吗?如果我将词向量切换到不同的集合,我是否应该期望性能以有意义的方式发生变化?我可以在代码的哪个位置找

python - 使用 Beautiful Soup 保存实体进行抓取

我想从网上抓取一张表格并保留 实体完好无损,以便我以后可以重新发布为HTML。BeautifulSoup似乎正在将这些转换为空格。示例:frombs4importBeautifulSouphtml=""html+=" hello "html+=""soup=BeautifulSoup(html)table=soup.find_all('table')[0]row=table.find_all('tr')[0]cell=row.find_all('td')[0]printcell观察结果: hello 要求的结果: hello 

python - 实体引用和 lxml

这是我的代码:fromcStringIOimportStringIOfromlxmlimportetreexml=StringIO(''']>&test;''')d1=etree.parse(xml)print'%r'%d1.find('/sub').textparser=etree.XMLParser(resolve_entities=False)d2=etree.parse(xml,parser=parser)print'%r'%d2.find('/sub').text这是输出:'Thisisatest'None如何让lxml给我'&test;',即原始实体引用?

python - 如何在 sqlalchemy 查询中返回相关实体的计数

我是sqlalchemy的新手,虽然文档看起来相当详尽,但我找不到做我想做的事情的方法。假设我有两个表:forum和post。每个论坛都有一个父论坛,以及任意数量的帖子。我想要的是:顶级论坛列表可通过顶级论坛访问的预先加载的子论坛每个child论坛的帖子数所以我开始:query(Forum).filter(Forum.parent==None).all()这给了我所有的顶级论坛。当然,访问子论坛会产生n个选择查询。query(Forum).options(eagerload('children')).filter(Forum.parent==None).all()这解决了n选择问题。现

python - 我怎么知道 ndb.Model.get_or_insert 是创建了一个新实体还是获得了一个现有实体?

对于以下(损坏的)函数,如果实体已创建或更新,我想返回True,否则返回False。问题是我不知道get_or_insert()是否得到了一个现有的实体,或者插入了一个实体。有没有一种简单的方法可以确定这一点?classMyModel(ndb.Model):defcreate_or_update(key,data):"""ReturnsTrueifentitywascreatedorupdated,Falseotherwise."""current=MyModel.get_or_insert(key,data=data)if(current.data!=data)current.dat

python - 从 NLTK 格式分块斯坦福命名实体识别器 (NER) 输出

我正在使用NLTK中的NER在句子中查找人物、地点和组织。我能够产生这样的结果:[(u'Remaking',u'O'),(u'The',u'O'),(u'Republican',u'ORGANIZATION'),(u'Party',u'ORGANIZATION')]是否可以通过使用它来将事物组合在一起?我想要的是这样的:u'Remaking'/u'O',u'The'/u'O',(u'Republican',u'Party')/u'ORGANIZATION'谢谢! 最佳答案 它看起来很长,但它确实有效:ner_output=[(u'R

python - 避免在未更改的实体上使用 .put() 的优雅方法

我在GAE上的Python编程中重复出现的模式是从数据存储中获取一些实体,然后可能根据各种条件更改该实体。最后,我需要将实体.put()返回到数据存储区,以确保保存可能对其进行的任何更改。然而,通常并没有实际进行任何更改,最终的.put()只是浪费金钱。如何轻松确保我只放置一个实体,如果它真的发生了变化?代码可能看起来像defhandle_get_request():entity=Entity.get_by_key_name("foobar")ifphase_of_moon()=="full":entity.werewolf=Trueifrandom.choice([True,Fals

python - 使用 lxml 处理 XML 文档中类似实体的最佳方法是什么?

考虑以下几点:fromlxmlimportetreefromStringIOimportStringIOx="""\n â"""p=etree.XMLParser(remove_blank_text=True,resolve_entities=False)r=etree.parse(StringIO(x),p)这会失败:lxml.etree.XMLSyntaxError:实体“nbsp”未定义,第2行,第11列这是因为resolve_entities=False不会忽略它们,只是不会解析它们。如果我改用etree.HTMLParser,它会创建html和body标